眼觀四面,耳聽八方」,聲音在空氣中的傳遞速度為每秒300公尺以上,在安全防制的「即時反應」需求下,若能充分利用聲音特性,佐以聲音辨識技術,將可以在極短的時間內偵測出特定聲音,做出反應,並在第一時間達到安全防制效果。 本文將從軍方與警方所面臨之槍戰情境與危機處理探討聲音辨識在安全監控與狙擊、犯罪防制的應用發展。
聲音辨識技術借重音效晶片
聲音辨識的技術是將聲音訊號經由音效晶片的數位化處理,使聲音的聲波訊號轉錄為聲音波形與頻譜圖等數位資料,以供系統判讀。對於聲音波形與頻譜圖的辨識與判讀,主要運用隱式馬可夫模型(Hidden Markov Model, HMM)的統計學原理,透過大量蒐集的聲波訊號,並經過數位化處理以建立資料庫,然後使用統計、歸納等方式,讓模型學習辨識各種聲音波形與頻譜圖的差異,再比對受測目標的音訊特徵,以獲得辨識結果。
聲音辨識系統包含三部分,其一為聲音輸入/擷取單元,可為高靈敏度的指向性麥克風(定向輸入源)或聲音感測器陣列(開放性空曠環境),第二部分為音訊處理單元,即類比/數位音訊處理晶片,用以將音訊功率放大及數位化處理,第三部分則為運算處理與系統管理單元,主要為處理音訊特徵分析、比對、儲存及執行系統管理等任務。
聲音辨識系統的運作方式如圖1所示,實際執行初期,先由電腦彙整足夠的聲音樣本資料,再選取適當的聲音特徵,經由模型的學習後,建立聲音辨識時所需的各項參數。在實際使用中,當輸入聲音訊號時,聲音辨識系統會將該訊號數位化、參數化,並比對資料庫的樣本模型,使其可針對該聲音訊號進行識別,並依據系統主要應用範圍執行適當的指令。
![]() |
資料來源:資策會MIC ITIS計畫(09/2008) 圖1 聲音辨識系統運作流程 |
應用聲音辨識達成身分識別/門禁管理
目前已有研究發現,一個人說話時,因其發聲器官包括口、唇、齒、上齶、咽喉及鼻腔等,以及因為年齡、性格、語言習慣等多種原因,以致於每個人的聲音皆有自己的特徵。因此,若將一個人的聲音訊號予以數位化,藉由其波形圖與頻譜圖分辨其特徵,經過比對後,即能從中分辨出特定的聲音資訊,因此聲音也能成為一種生物辨識應用,達到身分識別的目的。
以聲音辨識作為身分識別及門禁管理的依據,系當統實際執行之前,會先針對預設的權限使用者進行錄音,通常會先錄製一小段特定語音字串,如芝麻開門,以此樣本所記錄的聲紋資料、波形圖、頻譜圖等資訊儲存於資料庫中做為比對資料。系統實際運作時,首先以指向性麥克風收取使用者所說出的通關密語,接著將此聲音資訊予以數位化處理及比對,最後辨識使用者身分及達到門禁管理的目的。
因系統執行時,使用者是直接對著麥克風說出通關密語,因此聲音的擷取與採樣極為精確,鮮少發生因環境吵雜而無法辨識的窘境。此外,採用聲音辨識的門禁系統,屬於非接觸式的樣本擷取方式,相較於指紋或虹膜辨識等生物辨識方式要安全及衛生,因此,近年來包括高科技研究機構、金融單位、軍方或一般辦公及居家環境亦開始採用此種身分辨識方式,以取代鑰匙、門禁卡、帳號密碼或提供第二道門禁管理方式。
以聲音辨識提高狙擊反制能力
在戰場上或國際首長會議等場合,遭受狙擊手埋伏、發動突擊時,常因頭盔隔音或周圍噪音無法即時察覺並做出反應,而導致大量人員傷亡。由於這一類的突擊及狙擊情況在現代的各種大小戰事及維安行動中越來越常發生,因此歐美軍方及相關軍用設備開發廠商相繼研發「反狙擊偵測系統」(圖2),期望藉由聲音偵測快速辨識及定位槍聲來源,以提高首長、維安人員與部隊的安全,也可避免傷及無辜民眾。
![]() |
資料來源:資策會MIC ITIS計畫(09/2008) 圖2 反狙擊偵測系統運作示意圖 |
反狙擊偵測系統主要是偵測小型火砲武器,如手槍、輕型步槍、狙擊步槍等槍口衝擊波和子彈飛行產生的衝擊波以確定槍手的位置。反狙擊偵測系統經由聲音感測器陣列的安置,可精確測定槍口衝擊波和子彈飛行衝擊波到達每個感測器的時間差,透過運算公式可計算出槍聲來源、彈道飛行路徑、飛行速度,也可比對資料庫的各種聲紋資料,以判斷槍械口徑。
反狙擊偵測系統包含聲音感測器陣列、音訊處理模組和軍用電腦三部分。其中聲音感測器陣列可由數個麥克風或聲音感測器組成,架設方式包括固定式、可攜式、車載式等;音訊處理模組包括類比/數位音訊處理器、音訊功率放大器,以處理所收集到的槍聲訊號;軍用電腦主要是運算、管理與指揮系統,透過軍用電腦加以運算、儲存及辨識可疑槍聲來源,並結合全球衛星定位系統(GPS)、電子地圖等,以立即指揮部隊進行防禦或攻擊。
1996年法國里昂G7會議上,首次採用法國PILAR反狙擊偵測系統以保護各國與會貴賓,該系統隨後也在波士尼亞的維和行動中協助法國部隊安全達成任務,並獲得美國、義大利和澳大利亞等國家的部隊採用。
PILAR反狙擊偵測系統由法國Metravib研製,使用可在背景雜訊較大的環境下也能精確感應的高靈敏度聲音感測器。該系統透過聲音感測器陣列的布置,可以在2秒內偵測槍聲來源、定位、辨識槍支口徑及記錄飛行彈道,最遠可偵測出1,500公尺範圍內的槍聲來源,並可偵測出安裝有消音器的槍枝所射出的亞音速或超音速子彈,相當有利於特勤單位用以反制狙擊手。
2003年美軍因發生駐伊美軍遭到當地狙擊手的襲擊,之後,美國國防部展開一項名為Boomerang的反制狙擊手行動。由美國BBN開發的Boomerang反狙擊偵測系統,以反制城市突擊為主,聲音感測器陣列可固定於哨所,也可裝載於軍車上。該系統可偵測50~150公尺距離內的小型火砲射擊,於1秒內立即鎖定射擊位置,誤警率低於0.1%(誤差距離在30公尺內,方向偏差±2.5o範圍內),該系統於2004年已正式配備給美軍前線部隊。
因採用聲音辨識技術偵測小型火砲的方位及距離為較直覺與低成本的解決方案,因此有多家軍用設備廠商開發採用聲音辨識技術的反狙擊系統,如美國AAI的PDCue彈道偵測及定位系統、以色列的拉斐爾(Rafael-Armament Development Authority)研製的SADS反狙擊偵測系統與加拿大MacDonald Dettwiler開發的雪貂Ferret小型武器偵測及定位系統。
聲音辨識可提升槍擊案件處理效率
過去警方偵辦槍擊案件時,會將犯罪現場蒐集的相關錄音帶或影片,針對其中的聲音檔案加以分析,藉由將聲音訊號數位化,記錄其波形與頻譜圖以分辨每條連續聲波的特徵,並經過反覆比對,就能從中分辨出特定的聲音,如槍聲、嫌犯聲音、現場背景聲音等各項有助於破案的聲音線索。
歷史上較著名的兩大案例,為美國甘迺迪總統遇刺案及阿根廷警方誤殺民眾案。以美國甘迺迪總統遇刺案為例,1963年11月甘迺迪總統遇刺當時,依據現場所錄製的錄音帶及影片進行聲音辨識分析,以判別可能的槍聲及來源;而1997年4月在阿根廷的一場示威抗議活動中,一名無辜婦女遭警方誤殺,經檢視現場錄影畫面,針對影片中的聲音進行分析與辨識,進行槍聲定位,並釐清案情。
一般偵辦槍擊案件,警方會在事後進行相關影片或錄音帶的聲音波形分析、聲譜分析、頻譜分析,以釐清是槍聲、鞭炮聲或汽車引擎回火/放炮聲音。遺憾的是,根據歐美警方統計,槍擊相關刑案中,只有20~25%的破案率,主要是因警方趕抵現場的時間太晚,因此,近年來開始在歐美等重要城市借助聲音辨識技術達到槍聲辨識與定位的新興應用,以期望能在第一時間掌握破案時機,並進一步防制犯罪。
目前較具代表性的解決方案是ShotSpotter所開發的GLS槍聲定位系統,該系統主要延伸自歐美軍方的反狙擊偵測系統。配合各城市街道的監視錄影設備,GLS系統的聲音感測設備可與監視攝影機共同搭配安裝,藉由GLS系統的協助,警方可立即判別該聲響是否為槍聲或只是鞭炮聲、汽車引擎發動聲音,若是槍聲,GLS系統可立即辨識槍聲來源、分析槍枝口徑等,協助警方迅速掌握槍擊資訊。
GLS系統包含GLS槍聲定位系統、高速監控攝影機、衛星定位系統、電子地圖及遠距數位安全監控設備,並連結高速寬頻網路。系統啟動後,一旦聽到槍聲,系統可立即辨識槍聲來源與槍枝口徑,並在10秒內以高速攝影機立即鎖定槍聲來源,將現場畫面即時傳送至警方勤務中心,配合衛星定位與電子地圖,通知附近巡邏警網立即前往處理(圖3)。此一應用,可有效縮短警方趕抵現場時間,提高破案率,目前全美國已有近二十個城市安裝ShotSpotter的GLS槍聲定位系統。
![]() |
資料來源:資策會MIC ITIS計畫(09/2008) 圖3 槍聲定位系統提高警方偵辦槍擊案件效率 |
多核心運算提升聲音辨識度
聲音辨識技術利用對聲音波形與頻譜圖的判讀,達到辨識的效果。因為每一種聲音都有其特定的波形、頻譜及聲紋資料,藉由精確的模型運算與大量蒐集的資料比對,目前聲音辨識的準確率已較過去準確許多。
在應用方面,除身分辨識與門禁管理外,提升槍戰情境下的安全性與敵我辨識度已是近年來相當重要的應用發展。因自1990年代開始,世界各地皆有發生小規模的暴動、戰亂、刺殺等攻擊行動,為確保前線部隊、維安人員的安全,也為了避免在維和行動中,因情勢混亂而傷及無辜百姓,因此遂有軍方與軍用設備廠商相繼開發「反狙擊偵測系統」以應付相關需求。另一方面,這項技術與系統也被延伸應用至一般社區監控防護,以協助警方即時處理槍擊案件。
綜觀聲音辨識的技術與應用發展,因為聲音在空氣中的傳遞速度為每秒300公尺以上,在安全應用的「即時反應」需求下,運用聲音辨識技術,將可於極短的時間內偵測特定聲音,進而即時做出反應,以達到安全防制的目的。
聲音辨識系統技術整合與設備間的搭配,猶如人體面臨危急時的反應機制。人耳聽到異常聲響之後,會經由大腦的解讀及辨識,以針對可能的狀況做出反應,如聽到爆炸聲會本能的摀住耳朵、蹲下或迅速逃離。同樣的,聲音感測器偵測出聲音後,經由數位化處理、分析與資料庫數據比對等系統運算與判別,再透過高速寬頻網路傳送相關資訊給後端處理系統以做出反應。
展望聲音辨識在安全防制相關的應用發展,隨著電腦系統的多核心運算能力倍增,對於聲音所傳達的資訊分析將更精確。此外,微機電系統(MEMS)使聲音感測器陣列與麥克風的體積可以縮得更小,反應更加靈敏,再者,應用無線網路技術與環境,可廣泛設置多個聲音感測陣列,並利用無線網路將各個聲音感測陣列相互連結,讓整體系統執行時,便於相互傳達資訊與指令,更有利於安全監控與犯罪防制的應用發展。
(本文作者為資策會MIC資深產業分析師)